零射击动作识别(ZSAR)方法的成功与用于转移知识的语义侧信息的性质本质上相关,尽管该方面尚未在文献中进行研究。这项工作基于动作对象和动作描述性句子的关系介绍了一种新的ZSAR方法。我们证明,使用描述句子代表所有对象类时,当使用释义估计方法用作嵌入器时,会生成准确的对象相关估计。我们还展示了如何仅基于一组句子而没有硬人标签的一组句子来估算一组动作类别的概率。在我们的方法中,将这两个全局分类器(即使用在整个视频中计算的功能)的概率组合在一起,从而产生了有效的转移知识模型进行动作分类。我们的结果是Kinetics-400数据集中的最新结果,在ZSAR评估下对UCF-101具有竞争力。我们的代码可在https://github.com/valterlej/objsentzsar上找到
translated by 谷歌翻译